尽管最近的研究集中在量化单词用法上以找到叙事情感弧的整体形状,但叙事中叙事的某些特征仍有待探索。在这里,我们通过找到单词用法中波动开始相关的文本长度来表征亚叙事的叙事时间尺度。我们代表30,000多个项目Gutenberg书籍作为时间序列使用OusiOmetrics,这是一个具有基本含义的功率破坏者框架,本身是对价价 - 宽松义务框架的重新解释,这些框架源自语义差异。我们使用经验模式分解将每本书的力量和危险时间序列分解为组成振荡模式和非振荡趋势的总和。通过将原始力量和危险时间序列的分解与从洗牌文本中得出的分解,我们发现较短的书籍仅显示出一般趋势,而较长的书籍除了一般趋势外,还具有波动,类似于子图在一个中的弧线中的弧线。总体叙事弧。这些波动通常有几千个单词的时期,无论书籍长度或库分类代码如何,但根据书的内容和结构而有所不同。我们的方法提供了一种数据驱动的denoisising方法,可用于各种长度的文本,与使用大型窗口尺寸的更传统的方法相反,该方法可能会无意中平滑相关信息,尤其是对于较短的文本而言。
translated by 谷歌翻译